智能论文笔记

Growing Instance Mask on Leaf

Chuang Yang , Haozhao Ma , Qi Wang

分类：计算机视觉 | 人工智能

2022-11-30

Contour-based instance segmentation methods include one-stage and multi-stage schemes. These approaches achieve remarkable performance. However, they have to define plenty of points to segment precise masks, which leads to high complexity. We follow this issue and present a single-shot method, called \textbf{VeinMask}, for achieving competitive performance in low design complexity. Concretely, we observe that the leaf locates coarse margins via major veins and grows minor veins to refine twisty parts, which makes it possible to cover any objects accurately. Meanwhile, major and minor veins share the same growth mode, which avoids modeling them separately and ensures model simplicity. Considering the superiorities above, we propose VeinMask to formulate the instance segmentation problem as the simulation of the vein growth process and to predict the major and minor veins in polar coordinates. Besides, centroidness is introduced for instance segmentation tasks to help suppress low-quality instances. Furthermore, a surroundings cross-correlation sensitive (SCCS) module is designed to enhance the feature expression by utilizing the surroundings of each pixel. Additionally, a Residual IoU (R-IoU) loss is formulated to supervise the regression tasks of major and minor veins effectively. Experiments demonstrate that VeinMask performs much better than other contour-based methods in low design complexity. Particularly, our method outperforms existing one-stage contour-based methods on the COCO dataset with almost half the design complexity.

translated by 谷歌翻译

A Geometrically Constrained Point Matching based on View-invariant Cross-ratios, and Homography

Yueh-Cheng Huang , Ching-Huai Yang , Chen-Tao Hsu , Jen-Hui Chuang

分类：计算机视觉

2022-11-06

In computer vision, finding point correspondence among images plays an important role in many applications, such as image stitching, image retrieval, visual localization, etc. Most of the research worksfocus on the matching of local feature before a sampling method is employed, such as RANSAC, to verify initial matching results via repeated fitting of certain global transformation among the images. However, incorrect matches may still exist, while careful examination of such problems is often skipped. Accordingly, a geometrically constrained algorithm is proposed in this work to verify the correctness of initially matched SIFT keypoints based on view-invariant cross-ratios (CRs). By randomly forming pentagons from these keypoints and matching their shape and location among images with CRs, robust planar region estimation can be achieved efficiently for the above verification, while correct and incorrect matches of keypoints can be examined easily with respect to those shape and location matched pentagons. Experimental results show that satisfactory results can be obtained for various scenes with single as well as multiple planar regions.

translated by 谷歌翻译

Text Growing on Leaf

Chuang. Yang , Mulin. Chen , Yuan. Yuan , Qi. Wang

分类：计算机视觉

2022-09-07

不规则形状的文本为场景文本检测带来了挑战（STD）。尽管现有的基于轮廓点序列的方法达到了可比的性能，但它们无法涵盖一些高度弯曲的色带样文本线条。它导致文本拟合能力和性病技术应用有限。考虑到上述问题，我们将文本几何特征和生物学结合起来，设计基于天然叶子的文本表示方法（LVT）。具体而言，发现叶静脉是一张普遍定向的图，可以很容易地覆盖各种几何形状。受其启发，我们将文本轮廓视为叶边缘，并通过主，侧向和薄静脉表示。我们进一步构建基于LVT的检测框架，即Leaftext。在文本重建阶段，Leftext模拟了叶片生长过程以重建文本轮廓。它在笛卡尔坐标中生长主要静脉，首先将文本大致定位。然后，沿极坐标的主要静脉生长方向产生侧静脉和细静脉。他们负责分别产生粗轮廓和精炼。考虑到侧静脉对主静脉的深度依赖性，提出了多方向平滑（MOS）以增强主静脉的鲁棒性，以确保可靠的检测结果。此外，我们提出了全球激励损失，以加速侧静脉和薄静脉的预测。消融实验表明，LVT能够精确描绘任意形状的文本并验证MOS和全球激励损失的有效性。比较表明，Leftext优于MSRA-TD500，CTW1500，Total-Text和ICDAR2015数据集的现有最新方法（SOTA）方法。

translated by 谷歌翻译

Zoom Text Detector

Chuang. Yang , Mulin. Chen , Yuan. Yuan , Qi. Wang

分类：计算机视觉

2022-09-07

为了追求全面的性能，最近的文本检测器以牺牲准确性为代价提高了检测速度。他们采用基于收缩面罩的文本表示策略，从而导致检测准确性对收缩罩的高度依赖性。不幸的是，三个缺点会导致不可靠的收缩面罩。具体而言，这些方法试图通过语义信息来加强从背景中对收缩面具的歧视。但是，通过细粒度的目标优化了散焦现象的特征散布现象限制了语义特征的提取。同时，由于收缩面具和边缘都属于文本，因此忽略边缘的细节损失现象阻碍了收缩遮罩与边缘的区分，这会导致模棱两可的收缩面罩边缘。此外，假阳性样品享有带有收缩遮罩的类似视觉特征。他们加剧了收缩面具识别的下降。为了避免上述问题，我们提出了一个受相机变焦过程启发的变焦文本检测器（ZTD）。具体而言，引入了缩放模块（ZOM），以提供粗层的粗颗粒优化目标，以避免使用偏置功能。同时，提出了模块中的缩放（ZIM）以增强边缘识别，以防止细节损失。此外，顺序视觉判别器（SVD）旨在通过顺序和视觉特征抑制假阳性样品。实验验证了ZTD的出色全面性能。

translated by 谷歌翻译

Resolving Copycat Problems in Visual Imitation Learning via Residual Action Prediction

Chia-Chi Chuang , Donglin Yang , Chuan Wen , Yang Gao

分类：计算机视觉

2022-07-20

模仿学习是一种广泛使用的政策学习方法，它使智能代理能够从专家演示中获取复杂的技能。模仿学习算法的输入通常由当前的观察和历史观察组成，因为最近的观察结果可能不含足够的信息。图像观察尤其是这种情况，其中单个图像仅包含场景的一个视图，并且缺乏运动信息和对象阻塞。从理论上讲，为模仿学习代理提供多个观察将带来更好的性能。然而，令人惊讶的是，人们发现有时从观察史中模仿的表现比最近的观察结果差。在本文中，我们从神经网络角度的信息流中解释了这种现象。我们还提出了一种新颖的模仿学习神经网络体系结构，该架构不会因设计而遭受这个问题的困扰。此外，我们的方法缩放到高维图像观测值。最后，我们对两个广泛使用的模拟器Carla和Mujoco进行了基准测试，它成功地减轻了模仿问题并超过了现有的解决方案。

translated by 谷歌翻译

Mix-Teaching: A Simple, Unified and Effective Semi-Supervised Learning Framework for Monocular 3D Object Detection

Lei Yang , Xinyu Zhang , Li Wang , Minghan Zhu , Chuang Zhang , Jun Li

分类：计算机视觉

2022-07-10

单眼3D对象检测是自动驾驶的重要感知任务。但是，对大型标记数据的高度依赖使其在模型优化过程中昂贵且耗时。为了减少对人类注释的过度依赖，我们提出了混合教学，这是一个有效的半监督学习框架，适用于在训练阶段采用标签和未标记的图像。教学首先通过自我训练生成用于未标记图像的伪标记。然后，通过将实例级图像贴片合并到空背景或标记的图像中，对学生模型进行了更密集和精确的标签的混合图像训练。这是第一个打破图像级限制并将高质量的伪标签从多帧放入一个图像进行半监督训练的图像。此外，由于置信度评分和本地化质量之间的错位，很难仅使用基于置信度的标准将高质量的伪标签与嘈杂的预测区分开。为此，我们进一步引入了一个基于不确定性的过滤器，以帮助选择可靠的伪框来进行上述混合操作。据我们所知，这是单眼3D对象检测的第一个统一SSL框架。在KITTI数据集上的各种标签比下，混合教学始终通过大幅度的边缘改善了单支持者和GUPNET。例如，我们的方法在仅使用10％标记的数据时，在验证集上对GUPNET基线的改进约为 +6.34％ap@0.7。此外，通过利用完整的训练套件和Kitti的另外48K RAW图像，它可以进一步提高单声道 +4.65％的ap@0.7，以提高汽车检测，达到18.54％ap@0.7基于Kitti测试排行榜的方法。代码和预估计的模型将在https://github.com/yanglei18/mix-teaching上发布。

translated by 谷歌翻译

Towards Harnessing Feature Embedding for Robust Learning with Noisy Labels

Chuang Zhang , Li Shen , Jian Yang , Chen Gong

分类：机器学习 | 人工智能

2022-06-27

深神经网络（DNN）的记忆效应在最近的标签噪声学习方法中起关键作用。为了利用这种效果，已经广泛采用了基于模型预测的方法，该方法旨在利用DNN在学习的早期阶段以纠正嘈杂标签的效果。但是，我们观察到该模型在标签预测期间会犯错误，从而导致性能不令人满意。相比之下，在学习早期阶段产生的特征表现出更好的鲁棒性。受到这一观察的启发，在本文中，我们提出了一种基于特征嵌入的新方法，用于用标签噪声，称为标签NoissiLution（Lend）。要具体而言，我们首先根据当前的嵌入式特征计算一个相似性矩阵，以捕获训练数据的局部结构。然后，附近标记的数据（\ textIt {i.e。}，标签噪声稀释）使错误标记的数据携带的嘈杂的监督信号淹没了，其有效性是由特征嵌入的固有鲁棒性保证的。最后，带有稀释标签的培训数据进一步用于培训强大的分类器。从经验上讲，我们通过将我们的贷款与几种代表性的强大学习方法进行比较，对合成和现实世界嘈杂数据集进行了广泛的实验。结果验证了我们贷款的有效性。

translated by 谷歌翻译

Accelerating Shapley Explanation via Contributive Cooperator Selection

Guanchu Wang , Yu-Neng Chuang , Mengnan Du , Fan Yang , Quan Zhou , Pushkar Tripathi , Xuanting Cai , Xia Hu

分类：机器学习 | 人工智能

2022-06-17

尽管Shapley值为DNN模型预测提供了有效的解释，但该计算依赖于所有可能的输入特征联盟的枚举，这导致了指数增长的复杂性。为了解决这个问题，我们提出了一种新颖的方法剪切，以显着加速DNN模型的Shapley解释，其中计算中只有几个输入特征的联盟。特征联盟的选择遵循我们提出的Shapley链规则，以最大程度地减少地面shapley值的绝对误差，从而使计算既有效又准确。为了证明有效性，我们全面评估了跨多个指标的剪切，包括地面真相shapley价值的绝对误差，解释的忠诚和跑步速度。实验结果表明，剪切始终优于不同评估指标的最先进的基线方法，这证明了其在计算资源受到限制的现实应用程序中的潜力。

translated by 谷歌翻译

DUAL: Discrete Spoken Unit Adaptive Learning for Textless Spoken Question Answering

Guan-Ting Lin , Yung-Sung Chuang , Ho-Lam Chung , Shu-wen Yang , Hsuan-Jui Chen , Shuyan Dong , Shang-Wen Li , Abdelrahman Mohamed , Hung-yi Lee , Lin-shan Lee

分类：自然语言处理

2022-03-09

口头问题答案（SQA）是要从一个问题中找到口语文件的答案，这对于个人助理回复用户的查询至关重要。现有的SQA方法均取决于自动语音识别（ASR）成绩单。不仅需要对ASR进行大量的注释数据，这些数据是时间且成本良好的低资源语言的收集，而且更重要的是，问题的答案通常包括名称实体或不可能的唱片词正确识别。此外，ASR旨在最大程度地减少所有单词的识别错误，包括与SQA任务无关的许多函数单词。因此，尽管非常困难，但始终是高度期望的无ASR转录本（无文本）的SQA。这项工作提出了离散的口语自适应学习（双重），利用未标记的数据进行预训练，并通过SQA下游任务进行了微调。口语答案的时间间隔可以直接从口语文件预测。我们还发布了一个新的SQA基准语料库NMSQA，以了解具有更现实的方案的数据。我们从经验上表明，双重收益结果与通过级联ASR和文本质量质量质量质量质量质量质量质量质量质量质量质量质量质量质量数据相媲美，并与现实世界中的数据相当。我们的代码和模型将是开源的。

translated by 谷歌翻译

Subtask-dominated Transfer Learning for Long-tail Person Search

Chuang Liu , Hua Yang , Qin Zhou , Shibao Zheng

分类：计算机视觉

2021-12-01

人员搜索统一人员检测和人重新识别（重新ID），以从全景画廊图像找到查询人员。一个主要挑战来自于不平衡的长尾人身份分布，这可以防止一步人搜索模型学习歧视性人员特征，以获得最终重新识别。但是，探索了如何解决一步人员搜索的重型不平衡的身份分布。设计用于长尾分类任务的技术，例如，图像级重新采样策略很难被有效地应用于与基于检测的多个多个多的人检测和重新ID子任务共同解决人员检测和重新ID子任务 - 框架框架。为了解决这个问题，我们提出了一个子任务主导的传输学习（STL）方法。 STL方法解决了主导的重新ID子批次的预测阶段的长尾问题，并通过转移学习来改善普试模型的一步人搜索。我们进一步设计了一个多级ROI融合池层，以提高一步人搜索的人特征的辨别能力。 Cuhk-Sysu和Prw Datasets的广泛实验证明了该方法的优越性和有效性。

translated by 谷歌翻译